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摘要 ”生命 与 健康 大 数据 是 国家 人 口 健康 和 生物 安全 的 重要 基础 资源 。 目 前 ， 我 国 相关 数据 严重 流失 、 主 权 丢 

失 、 安 全 无 法 保障 、 再 利用 效率 极 低 ， 叹 待 加 快 建设 国家 级 生命 与 健康 大 数据 共享 平台 。 通 过 发 展 多 元 主动 的 数 

据 收集 新 方法 、 互 利 共 赢 的 数据 共享 新 机 制 、 高 效 智能 的 数据 解析 新 技术 ， 建 立 生命 健康 大 数据 的 汇 交 、 管 理 、 
、 应 用 体系 ， 维 护 国 家 数据 主权 ， 保 障 数据 安全 和 加 速 数据 应 用 ， 服 务 科研 院 所 、 高 校 、 医 院 、 企 业 和 广大 

人 民 和 群众 ， 为 我 国 经 济 社会 发 展 和 人 民生 活 改 善 作出 重大 贡献 。 

关键 词 ”生命 与 健康 ， 大 数据 ， 现 状 ， 展 望 
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1 人 类 社会 面临 的 问题 及 生命 与 健康 大 数据 Zift BEREI, AHER, REMER 


的 机 遇 胁 公共 安全 ; 重大 慢 病 严重 威胁 全 民 健康 ， 统 计数 字 
1.1 人 类 社会 发 展 面临 的 诸多 问题 表明 ， 我 国有 超过 3.4 亿 的 重大 慢 病 患者 ， 平 均 每 分 钟 
地 球 已 经 进入 到 了 “人 类 纪 ” ( Anthropocene ) ， 有 8 人 被 确诊 为 癌症 ，5 人 因 癌症 而 离世 。 
人 类 的 活动 给 地 球 的 地 质 、 生 态 系 统 造成 了 巨大 的 影 12 生命 与 健康 大 数据 的 机 遇 
响 。 全 球 变 暖 引 起 的 浆 土 融化 导致 已 灭绝 的 病原 菌 “ 重 121 生命 与 健康 大 数据 飞速 增长 
见 天 日 ”; 世界 人 口 持续 增长 并 出 现 老龄 化 ， 据 估计 ， 大 数据 ， 尤 其 是 生命 与 健康 大 数据 ， 将 为 应 对 上 述 


到 2020 年 我 国 65 岁 以 上 老龄 人 口 将 达 1.67 亿 ， 约 占 全 ”人 类 社会 问题 起 到 积极 的 作用 。 生 命 与 健康 大 数据 是 指 无 
世界 的 1/4; 全 球 农业 生产 力 已 经 连续 4 年 低 于 期 望 值 ， 法 在 较 快 的 时 间 内 用 传统 的 应 用 方法 处 理 的 庞大 、 复 杂 的 
如 不 改观 将 不 能 满足 地 球 上 不 断 增 长 的 人 口 的 需求 ; 局 ”生命 与 健康 数据 集 。 生 命 科学 领域 的 基础 研究 、 健 康 领域 
部 冲突 造成 难民 人 数 不 断 增加 ， 从 而 引发 严重 的 社会 及 ”” 均 产 出 大 数据 。 近 年 来 ， 我 国生 命 健 康 方面 的 科技 投入 持 


* 通 讯 作 者 

资助 项 目 : 国家 重点 研发 计划 (2016YFE0206600) ， 中 国 科学 院 信息 化 专项 课题 (XXH13505-05) ， 中 国 科学 院 国 际 合作 伙伴 计划 (153F11 
KYSB20160008) ， 中 国 科 学 院 率先 行动 “百人 计划 ” 

修改 稿 收 到 日 期 : 2018 年 8 月 13 日 


© 42) mnlsei 


202303.00692v1 


chinaXiv 


学 科 与 领域 


， 国 家 重点 研发 计划 启动 了 “精准 医学 研究 ”“ 重 
大 慢性 非 传 染 性 疾病 防 控 ”“ 生 殖 健康 及 重大 出 生 缺 陷 防 
控 研究 ”等 重点 专项 ， 预 计 今后 5 年 我 国 将 产生 300PB 以 
上 的 基因 组 数据 。 国 际 上 ， 多 个 国家 相继 开展 不 同 规模 其 
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目的 目标 是 创建 不 同 细胞 类 型 的 参考 表 观 基因 组 图 谱 。 
几乎 与 此 同时 ， 欧 洲 的 Wellcome Trust 资助 了 千 人 基因 组 
计划 ( 1000-Genome Project ) 中 。 该 计划 由 欧洲 生物 信息 


研究 所 (EMBL-EBI ) 于 2008 一 2015 年 运行 ， 主 要 目标 


至 百 万 人 级 的 基因 组 测序 计划 。 佑 计 到 2025 年 ， 全 球 每 
年 将 产 出 1ZB 的 基因 组 数据 "。 随 着 健康 医疗 技术 的 不 断 
发 展 ， 生 命 健 康 领域 数据 的 产 出 越 来 越 多 。 据 估计 ， 平均 
每 个 医院 每 年 将 产生 665 TB 的 医疗 数据 ; 按 此 计算 ， 仅 
全 国 1300 多 家 三 甲 医院 每 年 就 会 积累 约 850 PB 的 数据 。 
1.2.2 健康 科学 的 发 展 依赖 于 精准 医学 大 数据 

现代 医学 已 经 发 展 到 基于 生物 信息 大 数据 的 精准 医 
学 阶段 ， 这 为 恶性 肿瘤 、 心 脑 血 管 疾病 和 常见 病 的 防 控 
和 治疗 提供 了 革命 性 的 重大 历史 机 遇 。 通 过 全 基因 组 测 
序 指导 2 型 糖尿 病 治 疗 "， 利 用 可 穿戴 设备 收集 健康 大 数 
据 站 ， 采 用 深度 学 习 等 人 工 智 能 技术 帮助 皮肤 癌 诊 断 ， 
运用 多 组 学 大 数据 整合 分 析 进 行 癌症 精准 分 型 和 个 性 化 
治疗 中 ， 以 及 根据 DNA 中 包含 的 信息 推断 外 貌 表 型 、 种 
族 、 地 域 、 年 龄 和 生活 习惯 "等 ， 这 些 只 是 越 来 越 多 的 大 
数据 成 功 应 用 中 的 少数 案例 而 已 。 


2 国内 外 生命 与 健康 大 数据 的 现状 
2.1 国外 生命 与 健康 大 数据 的 现状 
2.1.1 国外 各 类 基因 组 测序 计划 催生 了 海量 的 生命 与 健康 
大 数据 

1977 年 ，Frederick Sanger 发 表 的 双 脱 氧 链 终止 法 标 
志 着 测序 技术 的 成 熟 。1986 年 ， 人 类 基因 组 计划 启动 ， 
并 于 2001 年 完成 了 人 类 基因 组 草图 。2005 年 ，454 测序 
仪 出 现 ， 下 一 代 测 序 技术 开始 投入 使 用 。 此 后 ， 生 命 与 
健康 领域 的 大 型 测序 项 目 层出不穷 ， 例 如 美国 国家 人 类 
基因 组 研究 所 (NHGRI ) 于 2003 年 9 月 启动 了 DNA 元 件 
百科 全 书 计 划 (ENCODE Project ) ， 其 主要 任务 是 鉴定 和 
分 析 人 类 基因 组 中 所 有 功能 元 件 。 作 为 ENCODE 项 目的 
补充 ，2007 年 美国 国立 卫生 研究 院 (NIH ) 启动 了 路 线 图 


表 观 基因 组 项 目 (Roadmap Epigenomics Project) ， 该 项 
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是 寻找 在 研究 的 人 类 群体 中 出 现 频率 至 少 为 1% 的 遗传 变 
异 。 类 似 地 ， 在 2008 年 初 启动 的 拟 南 草 1001 基因 组 计划 
的 目的 是 在 至 少 1001 个 品系 中 发 现 相 对 于 拟 南 芥 参 考 基 
因 组 的 序列 变异 。 由 美国 NHGRI 和 NIH 资 助 的 TCGA 计 
划 天 " 则 对 数 千 个 肿瘤 细胞 的 基因 组 、 外 显 子 组 和 转录 组 
进行 测序 ， 试 图 鉴别 出 驱动 癌症 发 展 的 公共 的 基因 突变 。 
NIH 资助 的 人 类 微生物 组 计划 (HMP ) 对 生活 在 人 类 肠 道 
和 皮肤 上 的 微生物 的 16S rRNA 扩 增 子 组 进行 测序 ， 以 期 
找到 一 组 核心 的 、 影 响 人 类 健康 的 微生物 组 。2012 年 ， 
英国 10 万 人 基因 组 计划 启动 。 而 更 大 的 、 酝 酿 了 3 年 
的 美国 政府 资助 的 健康 大 数据 项 目 100 万 人 基因 组 计划 已 
于 2018 年 5 月 20 日 启动 ， 该 项 目 将 建立 100 万 人 的 健康 大 
数据 队列 ， 预 计 耗 资 15 亿 美元， 为 期 10 年 。 
2.1.2 国外 形成 了 完整 的 生命 与 健康 数据 中 心 布局 

发 达 国家 政府 很 早 就 开始 重视 生命 与 健康 大 数据 
的 收集 、 分 析 和 应 用 。 早 在 1988 年 11 月， 美国 国家 医 
学 图 书馆 (NLM ) 就 意识 到 了 “发 展 新 的 信息 技术 以 
促进 对 控制 健康 和 疾病 的 分 子 过 程 的 理解 ”的 重要 性 ， 
把 Lister Hill 国家 生物 医学 交流 中 心 的 一 个 项 目 独 立 出 
来 ,成 立 了 美国 国家 生物 技术 信息 中 心 (NCBI) 。 从 创 
ŽP, NCBI 的 职责 之 一 就 是 收集 全 世界 的 生物 技术 数 
据 。30 FRÆ, NCBI 不断 发 展 壮大 ， 员 工 数 从 20 人 增加 
到 目前 的 700 余 人 ， 美国 国会 每 年 拨付 的 经 费 由 1990 年 
的 507.3 万 美元 增加 到 2014 年 顶峰 时 的 9583.3 万 美元 。 在 
这 个 过 程 中 ，NCBI 积 累 了 全 世界 最 大 的 生命 与 健康 数据 
库 (AN GenBank, PubMed, SRA, dbGaP 等 ) 和 软件 资源 

(如 BLAST e-Utilities 等 ) ， 目 前 数据 库 中 存储 的 总 数 

据 量 已 达 30PB ， 每 天 访问 网 站 的 用 户 有 420 万 ， 下 载 数 
据 达 60TB 以 上 ， 高 峰 时 段 的 点 击 量 超过 每 秒 7000 次 。 

欧洲 生物 信息 学 研究 所 CEBI) 的 前 身 是 1980 年 
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在 德国 海德 堡 建立 的 欧洲 分 子 生 物 学 实验 室 ( EMBL ) 
核酸 序列 数据 库 。1992 年 ，EMBL 在 英国 Hinxton 建立 
T EBI, EBI 最 早 的 数据 库 只 有 两 个 : 欧洲 核酸 归档 库 
(ENA ) 和 和 蛋白 序列 资源 库 ( UniProt ) ， 而 现在 EBI 已 
建成 世界 上 最 全 面 的 分 子 生物 学 数据 库 集 合 ， 其 管理 的 
总 数据 量 达 12 PB ， 每 月 用 户 数 为 320 HA> EBI 目前 有 
员工 约 600 人 ，2016 年 运行 经 费 为 8 820 万 美元 ， 主 要 来 
自 欧盟 各 国政 府 ， 特 别 是 英国 政府 。 

在 EMBL 和 GenBank 的 邀请 下 ， 日 本 政府 成 立 了 日 
Æ DNA 数据库 (DDBJ) 。1987 年 DDBJ 发 布 了 DDBIJ 
release 1， 标 志 着 该 机 构 开 始 正式 运行 。 目 前 ，DDBJ 的 
自 有 数据 量 约 为 3 PB ， 年 用 户 数 为 268 800 A; 共有 
约 50 名 员工 ， 年 经 费 为 891 万 美元 ， 由 日 本 文部 省 资 
助 。 

2005 年 5 月 ，NCBI、EBI 和 DDBJ 成 立 了 国际 核酸 序 
列 数据 库 联盟 (INSDC ) 。INSDC 是 国际 上 公共 领域 数 
据 共享 方面 最 著名 的 组 织 之 一 ， 其 成 员 每 天 进行 数据 交 
换 ， 每 年 召开 内 部 会 议 ， 讨 论 有 关 建 立 和 维护 序列 存档 
的 问题 ， 并 制定 了 一 系列 统一 的 标准 和 政策 。INSDC 在 
国际 生命 与 健康 大 数据 收集 上 有 着 巨大 的 影响 力 ， 作 为 
惯例 ， 在 主流 生物 医学 期 刊 发 表 论 文 前 都 要 将 数据 上 传 
到 INSDC 成 员 数 据 库 公开 。 

瑞士 生物 信息 学 研究 所 ( SIB ) 是 一 个 联合 瑞士 
境内 生物 信息 学 活动 的 非 营利 性 学 术 基 金 会 ， 成 立 
于 1998 年 。SIB 的 数据 涵盖 生命 科学 的 不 同 领域 ， 包 括 
基因 组 、 蛋 白质 组 、 医 药 健 康 、 进 化 、 结 构 生 物 学 和 系 
统 生物 学 等 。2017 年 ，SIB 核心 资源 被 全 球 约 600 万 用 户 
使 用 ， 当 年 SIB 管理 的 资金 总 额 达到 了 2676.5 万 美元 。 

在 健康 大 数据 领域 ，Epic 是 美国 最 大 的 电子 病历 
供应 商 ， 约 有 1.9 亿 的 个 人 用 户 使 用 Epic 公司 的 系统 储 
存 自 己 的 电子 医疗 信息 。Cerner 也 是 美国 最 大 的 电子 
病历 供应 商 之 一 ， 目 前 ，Cerner 在 全 世界 35 个 国家 支 
撑 了 27 000 个 不 同 大 小 的 医疗 机 构 。Google 的 控股 公 
F] Alphabet 旗下 的 DeepMind 公司 正在 使 用 人 工 智能 看 各 
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种 医学 影像 ， 试 图 学 会 那些 医生 需要 花 上 几 年 学 习 获得 
的 经 验 ， 从 而 使 机 器 学 会 判断 病症 。 
2.2 国内 生命 与 健康 大 数据 的 现状 
2.2.1 国内 各 种 类 型 的 生命 与 健康 大 数据 中 心 相 继 建成 

具有 代表 性 的 包括 : CD 深圳 国家 基因 库 ， 以 自 产 数 
据 为 主 ， 作 为 节点 蔡 EBI 收集 数据 。@® 上 海 生物 医学 大 
数据 中 心 ， 以 中 国 科学 院 上 海 生命 科学 研究 院 自 产 数据 
为 主 ， 支 持 数据 递交 、 发 布 、 管 理 和 共享 。@) 微生物 资 
源 与 大 数据 中 心 ， 以 微生物 资源 库 为 主 ， 提 供 微生物 资 
源 注册 、 查 询 ， 微 生物 知识 查询 等 ， 用 户 遍 布 国际 微生物 
bk. O 国家 人 口 与 健康 科学 数据 共享 服务 平台 ,包含 
约 400 个 医学 数据 库 的 访问 入 口 ， 以 医药 卫生 科学 数据 为 
Eo © 全 国 公安 机 关 DNA 数 据 库 "”， 于 2004 年 启动 ， 截 
至 2016 年 5 月 31 日 ,已 有 各 类 数据 4435.8 万 条 ， 其 中 违 
法 犯罪 人 员 信息 4071.9 万 条 、 现 场 物 证 149.8 万 条 ; “ 打 
拐 ”DNA 数据 库 ， 累 计 录 入 人 员 数 据 59.4 万 条 ，DNA 数 
据 51.3 万 条 ; 两 库 数 据 总 量 达 到 4487.1 万 条"'”"。(@) 北京 
基因 组 研究 所 生命 与 健康 大 数据 中 心 汪 ”， 数 据 主要 来 自 
于 用 户 递 交 ， 数 据 库 支 持 数据 递交 、 管 理 、 发 布 、 共 享 、 
检索 、 下 载 、 在 线 分 析 等 。 该 数据 库 拥 有 近 100 个 机 构 
的 300 余 数据 递交 用 户 ，70 多 个 国家 和 地 区 的 数据 访问 与 
下 载 用 户 ， 被 40 余 家 国际 期 刊 认 可 ; 2018 年 被 生物 大 数 
据 领域 权威 期 刊 Nucleic Acids Research. (《 核 酸 研究 》) 
列 为 与 美国 NCBI、 欧 洲 EBI 齐 名 的 全 球 核心 数据 中 心 9。 
2.2.2 存在 的 问题 

(1) 我 国 缺乏 生命 健康 大 数据 管理 公共 平台 ， 数 
据 流 失 严重 。 生 命 健康 领域 的 期 刊 杂 志 通 常 要 求 论 文 的 
递交 者 把 发 表 的 数据 在 学 界 认可 的 数据 库 公 开 。 由 于 我 
国 缺乏 国家 层面 自 上 而 下 的 统一 部 署 和 规划 ， 造 成 数据 
资源 严重 流失 。 据 统计 ，2016 年 中 国 大 陆 第 一 作者 发 表 
的 SCI 论 文 有 29.06 万 篇 ， 但 其 中 绝 大 部 分 的 数据 只 能 被 
递交 到 NCBI、EBI 等 国际 知名 数据 库 。 据 估计 ，NCBI 数 
据 库 中 25% 以 上 的 数据 来 自 中 国 。 

(2) 我 国 缺乏 生命 健康 大 数据 管理 共享 机 制 ， 形 
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成 数据 孤岛 ， 利 用 效率 低 。 过 去 的 十 几 年 里 ,我 国 通过 ”平台 ， 形 成 国际 生物 信息 研究 与 应 用 开发 中 心 。 

项 目 经 费 扶持 而 非 国家 专项 基金 支持 的 形式 产 出 了 大 量 
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Current Status and Prospect of Life and Health Big Data 


BAO Yiming"' XUE Yongbiao™ 
( 1 Beijing Institute of Genomics, Chinese Academy of Sciences, Beijing 100101, China; 
2 University of Chinese Academy of Sciences, Beijing 100049, China ) 

Abstract The life and health big data is an important resource of Chinese population health and biosafety. Currently, China's data are suffering 
from a severe drain and sovereignty loss, the data security cannot be guaranteed, and the efficiency of data reuse is extremely low. Thus, the 
construction of a national data sharing platform is urgent and should be accelerated. By developing new methods for multiple sources and 
proactive data collection, new mechanisms of mutual benefit and win-win data sharing and new technologies of highly efficient and intelligent 
data parsing, we need to establish a system for life and health big data collection, management, sharing, and application. The system will serve 
scientific research institutes, universities, hospitals, enterprises, and the broad masses of the people, and greatly contribute to China's economic 
and social development and the improvement of people's wellbeing. 
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